其他
独家|OpenAI超级对齐负责人Jan Leike:如何破解对齐难题?用可扩展监督
导读
Jan Leike
OpenAI 超级对齐团队负责人,研究方向为强化学习,大语言模型的对齐engineering,通用人工智能等。2016 年加入谷歌 DeepMind 团队从事人类反馈强化学习(RLHF)相关研究,现领导 OpenAI 对齐团队,旨在设计高性能、可扩展、通用的、符合人类意图的机器学习算法,使用人类反馈训练人工智能,训练人工智能系统协助人类评估,训练人工智能系统进行对齐研究。
什么是可扩展监督
利用随机对照实验衡量可扩展监督的效果
实验结果
如何信任模型编写的代码?
下一个问题是,我们如何相信模型编写的代码?
Q&A
5000字详解OpenAI超级对齐四年计划:定义、挑战与方法
更多内容 尽在智源社区